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Die vorliegende Erfindung betrifft das oberbegrif f lich Bean- 
spruchte und befasst sich somit mit Verbesserungen bei der 
Verwendung von rekonf igurierbaren Prozessortechnologien far 
die Datenverarbeitung. 



.25 



30 



Verwiesen wird bezilglich des bevorzugten Aufbaus von Lo- 
gikzellenfeldern auf die XPP-Architektur und vorverdf f ent- 
lichte sowie jungere Schutzrechtsanmeldungen. des vorliegenden 
Anmelders, die zu Of f enbarungszwecken vollumf anglich einge- 
gliedert sind. Erwahnt seien somit insbesondere die 
DE 44 16 881 Al, DE 197 81 412 Al, DE 197 81 483 Al, 
DE 196 54 846 Al, DE 196 54 593 Al, DE 197 04 044.6 Al, 
DE 198 80 12.9 Al, DE 198 61 088 Al, DE 199 80 312 Al, 
PCT/DE 00/01869, DE 100 36 627 Al, DE 100 28 397 Al, 
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DE 101 10 530 Al, DE 101 11 014 Al, PCT/EP 00/10516, 
EP 01 102 674 Al, DE 198 80 128 Al, DE 101 39 170 Al 
DE 198 09 640 Al, DE 199 26 538.0 Al, DE 100 50 442 Al, sowie 
die PCT/EP 02/02398, DE 102 40 000, DE 102 02 044, 
DE 102 02 175, DE 101 29 237, DE 101 42 904, DE 101 35 210, 
EP 01 129 923, PCT/EP 02/10084, DE 102 12 622, DE 102 36 271 
DE 102 12 621, EP 02 009 868, DE 102 36 272, DE 102 41 812 
DE 102 36 269, DE 102 43 . 322, EP 02 022 692, ebenso wie die 
EP 02 001 331 und die EP 02 027 277. 

. Ein Problem bei herk5rnmlichen Ansatzen zu rekorif igurierbaren 
Technologien besteht dann, wenn die Datenverarbeitung primar 
auf einer sequenziellen CPU unter Hinzuziehung eines konfigu- 
rierbaren Datenverarbeitungslogikzellenf eldes oder derglei- 
chen erfolgen soil und/oder eine Datenverarbeitung gewunscht 
ist, in der viele und/oder umfangreiche sequenziell auszufuh- 
rende Verarbeitungsschritte vorliegen. 

Es sind Ansatze bekannt, die sich damit befassen, wie eine 
Datenverarbeitung sowohl auf einem konf igurierbaren Datenver- 
arbeitungslogikzellenf eld als auch auf einer CPU erfolgen 
kann . 

So ist aus der WO 00/49496 ein Verfahren zum Ausfuhren eines 
Computerprogrammes mit einem Prozessor bekannt, der eine kon- • 
figurierbare funktionelle Einheit umfasst, die in der Lage 
ist, rekonfigurierbare Anweisungen auszuftihren, deren Effekt 
zur Laufzeit durch Laden eines Konf igurationsprogrammes rede- 
finiert werden kann, wobei das Verfahren die Schritte um- ' 
fasst, daft Kombinationen rekonf igurierbarer Anweisungen aus- 
gewahlt, ein respektives Konf igurationsprogramm fur jede Kom- 
bination erzeugt und das Cpmputerprogramm ausgefuhrt wird. 
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Dabei soli jedes Mai, wenn eine Anweisung aus einer der Kom- 
binationen wahrend der Ausfiihrung gebraucht wird und die kon- 
figurierbare funktionelle Einheit nicht mit dem Konfigurati- 
onsprogranim fur diese Kombination konfiguriert ist, das Kon- 
figurationsprogramm far alle der Anweisungen der Kombination 
in die konfigurierbare funktionelle Einheit geladen werden. 
Weiter ist aus der WO 02/50665 Al eine Datenverarbeitungsvor- 
richtung mit einer konf igurierbaren funktionellen Einheit be- 
kannt, wobei die konfigurierbare funktionelle Einheit dazu 
dient, eine Anweisung gemafi einer konf igurierbaren Funktion 
auszufuhren. Die konfigurierbare funktionelle Einheit weist 
eine Vielzahl von unabhangigen konf igurierbaren LogikblScken 
zum AusfQhren programmierbarer Logikoperationen auf, urn die 
konfigurierbare Funktion zu implementieren . Konfigurierbare 
Verbindungsschaltkreise sind zwischen deh Tconf igurierbaren 
LogikblScken und sowohl den Eingangen als auch den Ausgangen 
der konf igurierbaren funktionellen Einheit vorgesehen. Dies 
erlaubt eine Optimalisierung der Verteilung von Logikf unktio- 
nen tiber die konf igurierbaren Logikblocke. 

Ein Problem bei herkdmmlichen Architekturen besteht dann, • 
wenn eine Ankopplung erfolgen soil und/oder Technologien wie 
Datastreaming, Hyperthreading, Multithreading und so weiter 
in sinnvoller und Performance steigernder Weise ausgeniitzt 
werden sollen. Die beispielhaft erwahnte Technologie der vor- 
zitierten Nicht-Anmelder-Dokumente zeigt. etwa eine Anordnung, 
bei der zwar Konf igurationen in ein konf igurierbares Daten- 
verarbeitungslogikzellenfeld geladen werden konnen, bei wel- 
chen allerdings der Datenaustausch zwischen der ALU der CPU 
und dem konf igurierbaren Datenveraxbeitungslogikzellenfeld, 
sei es ein FPGA,. DSP oder dergleichen, xiber die Register er- 
folgt. Mit anderen Worten mussen Daten aus einem Datenstrom . 
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zunachst sequenziell in Register geschrieben werden und dann 
sequenziell wieder in diesen abgelegt werden. Auch ist ein 
Problem dann gegeben, wenn ein Zugriff auf Daten von extern 
erfolgen soli, da selbst dann noch Probleme beim zeitlichen 
Ablauf der Datenverarbeitung im Vergleich zur ALU und bei der 
Zuweisung von Konf igurationen und so weiter bestehen. Die 
herkommlichen Anordnungen, wie sie aus den Nicht -Anmelder- 
eigenen Schutzrechten bekannt sind, werden unter anderem dazu 
verwendet, Funktionen im konf igurierbaren Datenverarbeitungs- 
logikzellenfeld, DFP, FPGA Oder dergleichen abzuarbeiten, die 
nicht effizient auf der" CPU-eigenen ALU abzuarbeiten sind. 
Damit wird das konf igurierbare Datenverarbeitungslogikzellen- 
feld praktisch verwendet, um benutzerdef inierte Opcodes zu 
ermoglichen, die eine effizientere Abarbeitung von Algorith- 
15 men ermoglichen, als dies auf dem ALU-Rechenwerk der CPU ohne 
konf igurierbare Datenverarbeitungslogikzellenf eldunterstut- 
zung moglich ware. 

Im Stand der Technik ist, wie erkannt wurde, die Ankopplung 
0 demnach im Regelfall wortbasiert, nicht jedoch blockbasiert , 
wie es zur datenstromenden Verarbeitung erforderlich ware. Es- 
ist zunachst wiinschenswert, eine effizientere ■ Datenverarbei- 
tung zu ermoglichen, als dies mit einer engen Ankopplung iiber 
Register der Fall ist. 

Eine weitere Moglichkeit zur Verwendung von Logikzellenf el- 
dern aus grob- und/oder feingranular gebauten Logikzellen und 
Logikzellenelementen besteht in einer sehr losen Ankopplung 
eines solchen Feldes an eine herkommliche CPU und/oder ein 
CPU-Kern bei eingebetteten S.ystemen. Hierbei kann ein her- 
kommliches, sequenz'ielles Programm auf einer CPU oder der- 
gleichen. laufen, beispielsweise ein in C, C++ oder derglei- 
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chen geschriebenes Programm, wobei von diesem Aufrufe einer * 
Datenstromverarbeitung auf dem fein- und/oder grobgranularen 
Datenverarbeitungslogikzellenfeld instantiiert .werden. Pro- 
blematisch ist dann, dass beim Programmieren fur dieses Lo- 
5 gikzellenfeld ein nicht in C oder einer anderen sequenziellen 
Hochsprache geschriebenes Programm fur die Datenstromabarbei- 
tung vorgesehen werden muss. Erwunscht ware hier, dass sowohl 
auf der herkommlichen CPU-Architektur als auch auf einem mit 
diesen gemeinsam betriebenen Datenverarbeitungslogikzellen- 
10 feld C-Programme oder dergleichen abzuarbeiten sind, das 

heifit, dass insbesondere mit dem Datenverarbeitungslogikzel- 
lenfeld in quasi sequenzieller Programmabarbeitung dennoch 
eine Datenstromf ahigkeit erhalten bleibt, wahrend simultan 
auch insbesondere moglich bleibt, dass ein CPU-Betrieb in 
15 nicht zu loser Ankopplung moglich ist. Es "ist auch bereits 

bekannt^ innerhalb einer Datenverarbeitungslogikzellenf eldan- 
ordnung A wie sie insbesondere aus PACT 02 (DE 196 51 075.9-53 f 
WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 98/29952), 
PACT 08 , (DE 197 04 728.9, WO 98/35299) PACT 13 (DE 199 26 
20 538.0, WO 00/77652) PACT 31 (DE 102 12 621.6-53, PCT/EP 

02/10572) bekannt ist, auch eine sequenzielle Datenverarbei- 
tung innerhalb des Datenverarbeitungslogikzellenf eldes vorzu- 
sehen. Hierbei wird dann allerdings innerhalb einer einzelnen 
Konf iguration, beispielsweise urn Ressourcen zu sparen, eine 
25 Zeitoptimierung zu erzielen und so weiter, eine partielle Ab- 
arbeitung erzielt, ohne dass diese bereits dazu fuhrt, dass 
ein Programmierer ein Stuck Hochsprachencode automatisch 
leicht ohne weiteresauf ein Datenverarbeitungslogikzellen- 
feld umsetzen kann, wie dies bei herkommlichen Maschinenmo- 
30 dellen fur sequenzielle Prozessoren- der Fall ist. Die Umset- 
zung von Hochsprachencode auf Datenverarbeitungslogikzellen- 
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felder nach Prinzipien der Modelle fur sequenziell arbeitende 
Maschinen ist weiterhin schwierig. 

Aus dem Stand der Technik ist welter bekannt, dass mehrere 
5 Konf igurationen, die eine jeweils unterschiedliche Funktions- 
weise von Arrayteilen bewirken, simultan auf dem Prozessor- 
feld (PA) abgearbeitet werden konnen und dass ein Wechsel von 
einer Oder- einigen der Konf iguration (en) ohne Storung anderer 
zur Laufzeit erfolgen kann. Es sind Verfahren und in Hardware 
. 10 implementierte Mittel zu deren Umsetzung bekannt, wie sicher- 
geste'llt werden kann, dass dabei ein Abarbeiten von auf das 
Feld zu ladenden Teilkonf igurationen ohne Deadlock erfolgen 
kann. Verwiesen wird hierzu insbesondere auf die die Filmo- 
Technik betreffenden Anmeldungen PACT 05 (DE 196 54 593.5-53,. 
15 WO 98/31102) PACT10 (DE 198 07 872.2, WO '9*9/4414 7, WO 

99/44120) PACT 13 (DE 199 26 538.0, WO 00/77652), PACT 17 (DE , 
100 28 397.7, WO 02/13000). Diese Technologie ermoglicht in 
gewisser Weise bereits eine Parallelisierung und, bei ent- 
sprechender Gestaltung und Zuordnung der Konf igurationen, 
20 auch eine Art Multitasking/Multithreading und zwar derge- 

stalt, dass eine Planung, das heiUt ein Scheduling und/oder 
eine Zeitnutzungsplanungssteuerung vorgesehen ist. Es sind 
also aus dem Stand der Technik schon Zeitnutzungsplanungs- 
steuerungsmittel und -verfahren per se bekannt, die, zumin- 
25 dest unter entsprechender Zuordnung von Konf igurationen zu 

einzelnen Aufgaben und/oder Faden zu Konf igurationen und/oder 
Konfigurationsfolgen, ein Multitasking und/oder Multithrea- 
ding erlauben. Die Verwendung solcher Zeitnutzungsplanungs- 
steuermittel, die im Stand der Technik zur Konf igurierung 
30 und/oder Konf igurationsverwaltung verwendet. wurden, zu Zwek- 
ken des Scheduling von Tasks, Threads, Multi- und Hyper- 
threads wird per se als erfinderisch angesehen.-. 
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Wunschenswert ist auch zumindest gemafl einem Teilaspekt in 
bevorzugten Varianten, moderne Technologien der Datenverar- 
beitung und Programmabarbeitung wie Multitasking, Multithrea- 
ding, Hyperthreadirig unterstutzen zu kdnnen, zumindest in be- 
vorzugten Varianten einer Halbleiterarchitektur . 

Der Grundgedanke der Erfindung besteht darin, Neues fur die 
gewerbliche Anwendung bereitzustellen. 

Die L6sung dieser Aufgabe wird in unabhangiger Form bean- 
sprucht. Bevorzugte Ausf uhrungsfqrmen finden sich in den Un- 
teransprtlchen . 

Ein erster wesentlicher Aspekt der vorliegenden Erfindung ist 
somit darin zu sehen, dass dem Datenverarbeitungslogikzellen- 
feld Daten im Ansprechen auf die Ausfuhrung einer Ladekonfi- 
guration durch das Datenverarbeitungslogikzellenf eld zuge- 
fiihrt werden und/oder Daten aus diesem Datenverarbeitungslo- 
gikzellenf eld weggeschrieben (STORE) werden, indem eine 
STORE-Konfiguration entsprechend abgearbeitet wird. Diese La- 
de- und oder Speicherkonf igurationen sind dabei bevorzugt 
derart auszugestalten, dass innerhalb des Datenverarbeitungs- 
logikzellenf eldes direkt oder indirekt Adressen jener Spei- 
cherstellen generiert werden, auf welche ladend und/oder 
speichernd direkt oder indirekt zugegriffen werden soil. Es 
ist durch diese Einkonf iguration. von Adressgeneratoren inner- 
halb einer Konf iguration moglich,. eine Vielzahl von Daten in 
das Datenverarbeitungslogikzellenfeld einzuladen, wo sie ge- 
gebenenfalls in internen Speichern (iRAM) ablegbar sind 
und/oder wo sie in internen Zellen wie EALUs mit Registern 
und/oder dergleichen eigenen Speichermitteln abgelegt werden 
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konnen. Die Lade- beziehungsweise Speicherkonf iguration er- 
moglicht somit ein blockweises und nahezu datenstromartiges, 
insbesondere gegenuber Einzelzugrif f vergleichsweises schnel- 
les Laden von Daten und es kann eine solche Lade-Konf igura- 
5 tion ausgefuhrt werden vor einer oder mehreren tatsachlich 
Daten auswertend und/oder verandernd abarbeitenden Konfigura- 
tion (en), mit welcher/n die vorab geladenen Daten verarbeitet 
werden. Das Datenladen kann dabei typisch bei grofien Logik- 
zellenfeldern in kleinen Teilbereichen derselben geschehen, 
10 wahrend andere Teilbereiche mit anderen Aufgaben befafit sind. 
Bei der in anderen* verof f entlicht en Do : kumenten des' Anmelders 
beschriebenen Ping-Pong-artigen Datenverarbeitung, bei der 
auf beiden Seiten eines Datenverarbeitungsf eldes Speicherzel- 
len vorgesehen sind, wobei die Daten in einem ersten Verar- 
15 beitungsschritt von dem Speicher auf der 'einen Seite durch 

das Datenverarbeitungsfeld zum Speicher auf der anderen Seite 
stromen, dort die beim ersten Felddurchstromen erhaltenen 
Zwischenergebnisse im zweiten Speicher abgelegt werden, gege- 
benenfalls das Feld umkonf iguriert wird, die Zwischenergeb- 
20 nisse dann fur die Weiterverarbeitung zuruckstromen usw., 

kann etwa eine Speicherseite durch eine LOAD-Konf iguration in 
einem Array-Teil mit neuen Daten vorgeladen werden, wahrend 
aus der gegenuberliegenden Speicherseite Daten mit einer 
S.TORE-Konf iguration in einem anderen Array-Teil weggeschrie- 
2.5 ben werden. Dieses simultane LOAD/STORE-Vorgehen ist im ubri- 
gen auch ohne raumliche Speicherbereichstrennung moglich. 

Das Laden kann insbesondere aus einem Cache und in diesen 
hinein erfolgen. Dies hat die Vorteile, dass die externe Kom- 
•30 munikation mit grSBeren Speicherbanken iiber den Cachecontrol- 
v • ler gehandhabt wird, ohne dass innerhalb des Datenverarbei- 
tungslogikzellenfeldes separate Schaltanordnungen daftir vor- 
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gesehen sein mussen, dass der Zugriff in lesender oder- 
schreibender Weise bei Cache-Speichermitteln typisch sehr 
.schnell und mit allenfalls geringer Latenzzeit erfolgen wird 
und dass auch typisch eine CPU-Einheit, dort typisch aber ei- 
ne separate LOAD/STORE-Einheit , an diesen Cache angebunden 
ist, sodass ein Zugriff auf Daten und ein Austausch derselben 
zwischen CPU-Kern und Datenverarbeitungslogikzellenf eld 
blockweise schnell und derart erfolgen kann, dass nicht fur 
jedes Obergeben von Daten ein separater Befehl etwa aus dem 
OpCode-Fetcher der CPU abgeholt und verarbeitet werden muss. 

Es erweist sich diese Cacheankoppelung auch als wesentlich 
gunstiger als eine Ankopplung eines Datenverarbeitungslo- 
gikzellenf eldes an die ALU iiber Register/ wenn diese Register 
nur iiber eine LOAD/STORE-Einheit mit eineitf Cache kommunizie- 
ren, wie dies aus den Nicht-PACT-eigenen zitierten Schrif ten t 
per se bekannt ist, 

Es kann eine weitere Datenverbindung zu der Lade/Speicher- 
einheit der oder einer dem Datenverarbeitungslogikzellenf eld 
zugeordneten Sequenziell-CPU-Einheit vorgesehen sein und/oder 
zu deren Register. 

Es sei erwahnt, dass ein Ansprechen derartiger Einheiten uber 
separate Eingangs-/Ausgangsanschlusse (IO-Ports) der insbe- 
sondere als VPU beziehungsweise XPP ausgestaltbaren Datenver- 
arbeitungslogikzellenanordnung erfolgen kann und/oder durch 
einen oder mehrere einem Einzelport nachgeschaltete Multiple- 
xer . 

Dass neben dem insbesondere blockweisen und/oder streamenden 
und/oder im Random-Access, insbesondere im RMW-Modus (Read- 
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Modify-Write-Modus) erfolgenden Zugriff auf Cache-Bereiche in 
schreibender und/oder lesender Weise und/oder die LOAD/STORE- 
Einheit und/oder die (per se im Stand der Technik bekannte) 
Verbindung mit dem Register der Sequenziell-CPU auch eine 
Verbindung mit einem externen Massenspeicher wie einem RAM, 
einer Festplatte und/oder einem anderen Datenaustauschport 
wie einer Antenne und so weiter erfolgen kann, sei auch er- 
wahnt, Es kann fur diesen Zugriff auf Cache- und/oder LOAD/ 
STORE-Einheit- und/oder registereinheitverschiedene Speicher- 
mittel ein separater Port vorgesehen sein. Dass hier geeigne- 
te Treiber, Signalauf bereiter fur Pegelanpassung und so' wei- 
ter vorgesehen sein konnen, sei erwahnt. Im Obrigen sei er- 
wahnt, dass insbesondere, jedoch nicht . ausschlielilich zur 
Aufbereitung eines in das Datenverarbeitungslogikzellenf eld 
hineinstromenden oder in diese'm stromendeiY Datenstrom die Lo- 
gikzellen des Feldes ALUs bzw. EALUs umfassen konnen und ty- 
pisch werden, denen eingangs- und/oder ausgangsseitig, insbe- 
sondere sowohl eingangs- als auch ausgangsseitig kurze, fein- 
granular konf igurierbare, FPGA-artige Schaltkreise vorgesetzt 
sein konnen, urn etwa aus einem kontinuierlichen Datenstrom 
Vierbitblocke ■ herauszuschneiden, wie dies fur die MPEG-4- 
Dekodierung erforderlich ist. Es ist dies zum einen vorteil- 
haft, wenn ein Datenstrom in die Zelle hineingelangen soli 
und dort ohne Blockierung von groBeren PAE-Einheiten einer 
Art Vorverarbeitung zu unterwerfen ist. Dies ist auch dann 
von ganz besonderem Vorteil, wenn die ALU als SIMD-Rechenwerk 
ausgestaltet wird, wobei dann ein sehrbreites Dateneingangs- 
wort von zum Beispiel 32 Bit Datehbreite uber die vorgeschal- 
.teten FPGA-artigen- Streifen aufgespalten wird in mehrere pa- 
rallele DatenwOrter von zum Beispiel 4 Bit Breite, die dann 
in den SIMD-Rechenwerken parallel abgearbeitet werden konnen, 
was die Gesamtperf ormance des Systems signifikant zu erhohen 
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vermag, sofern entsprechende Anwendung benotigt werden. Es 
sei darauf hingewiesen, dass vorstehend von FPGA-artigen vor- 
beziehungsweise nachgeschalteten Strukturen die Rede war. Mit 
FPGA-artig muss aber, was explizit erwahnt sei, nicht zwin- 
gend Bezug genommen sein auf 1-Bit-granulare Anordnungen. Es 
ist insbesondere moglich, statt dieser hyperf eingranularen 
Strukturen lediglich feiner granulare Strukturen von zum Bei- 
spiel 4 Bit Breite vorzusehen. Das heifit, die FPGA-artigen 
Eingangs- und/oder Ausgangsstrukturen vor und/oder nach einer 
insbesondere als SIMD-Rechenwerk ausgestalteten ALU-Einheit 
sind so konf igurierbar, dass immer 4 Bit breite Datenworter 
zugefuhrt' und/oder verarbeitet werden. Es ist moglich, hier 
eine Kaskadierung vorzusehen, so dass zum Beispiel die ein- 
kommenden 32 Bit breiten Datenworter in .4 separierte bzw. se- 
parierende 8-Bit-FPGA-artige, nebeneinander angeordnete 
Strukturen stromen, diesen 4 Stuck 8 Bit breiten FPGA-artigen 
Strukturen ein zweiter Streifen mit 8 Stuck 4 Bit breiten 
FPGA-artigen Strukturen nachgesetzt ist, und gegebenenf alls 
nach einem weiteren derartigen Streifen dann, sofern dies fur 
den jeweiligen Zweck als erforderlich erachtet wird, zum Bei- 
spiel 16 Stuck parallel nebeneinander angeordnete 2 Bit brei- 
te FPGA-artige Strukturen vorgesehen werden." Wenn dies der 
Fall ist, kann gegeniiber rein hyperf eingranular FPGA-artigen 
Strukturen eine betrachtliche Verringerung des Konfigura- 
tionsaufwandes erzielt werden. Dass dies iiberdies dazu fuhrt, 
dass der * Konf igurationssp.eicher und so weiter der FPGA- 
artigen Struktur wesentlich kleiner ausf alien kann undsomit 
eine Einsparung an Chipflache erzielt wird, sei erwahnt. 

Prinzipiell sind die vorstehend beschrie'benen Kopplungsvor- 
teile bei Date'nblockstromen uber den Cache prinzipiell er- * 
reichbar; besonders bevorzugt ist es jedoch, wenn der Cache 
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streifenweise (slice-artig) aufgebaut ist und dann ein Zu- 
griff auf mehrere der Slices simultan erfolgen kann, insbe- 
sondere auf alle Slices gleichzeitig. Dies ist dann vorteil- 
haft, wenn, was noch erOrtert werden wird, auf dem Datenver- 
5 arbeitungslogikzellenfeld (XPP) und/oder der Sequenziell-CPU 
und/oder den Sequenziell-CPUs eine Vielzahl von Threads abzu- 
arbeiten sind, sei es im Wege des Hyperthreadings, des Multi- 
taskings und/oder des Multithreadings. Es sind also bevorzugt 
Cachespeichermittel mit Scheibenzugrif f bzw. Scheibenzu- 
10 griffsermdglichungssteuermitteln vorgesehen. Es kann dabei z. 
B. jedem Thread eine eigene Scheibe • zugeordnet werden." Dies 
ermoglicht es. spater, beim Abarbeiten der Threads sicherzu- 
stellen, dass jeweils auf die entsprechenden Cachebereiche 
bei Wiederaufnahme der mit dem Thread abzuarbeitenden Be- ,. 
15 fehlsgruppe zugegriffen wird. 

Es sei noch einmal erwahnt, dass der Cache nicht zwingend in 
Slices unterteilt sein muss, und dass, wenn dies der Fall 
ist, nicht zwingend jeder Slice einem eigenen Thread zugewie- 
0 sen werden muss. Es sei allerdings darauf hingewiesen, dass 
dies die bei weitem bevorzugte Methode ist. Es sei weiter 
darauf hingewiesen, dass es Falle geben kann, in denen nicht 
alle Cache-Bereiche simultan oder zu einer gegebehen Zeit 
temporar benutzt werden. Vielmehr ist zu erwarten, dass bei 
5 typischen Datenverarbeitungsanwendungen, wie sie in handge- 
haltenen mobilen Telefonen (Handys) , Laptops, Kameras und so 
• weiter auftreten werden, haufig Zeiten vorliegen werden, in 
denen nicht der gesamte Cache benotigt wird. Es ist. daher be- 
sonders bevorzugt, wenn einzelne Cache-Bereiche von der Lei- 
stungsversorgung derart trennbar sind, dass ihr Energiever- 
brauch signifikant absinkt, insbesondere auf oder nahe null. 
Dies kann bei sliceweiser Ausgestaltung des Caches durch sli- 
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ceweise Abschaltung derselben uber geeignete Leistungsab- 
trennmittel geschehen. Die Abtrennung kann entweder iiber eine 
Heruntertaktung, Takt abtrennung oder eine Leistungsabtrennung 
erfolgen. Es kann insbesondere einer einzelnen Cache-Scheibe 
Oder dergleichen eine Zugrif f serkennung zugeordnet sein, wel- 
che dazu ausgebildet ist, zu erkennen, ob ein jeweiliger 
Cache-Bereich beziehungsweise eine jeweilige Cache-Scheibe 
momentan einen ihm zugeordneten Thread, Hyper thread oder Task 
hat, von welchem er beniitzt wird. Sofern dann vom Zugrif f ser- 
kennungsmittel festgestellt wird, dass dies nicht der Fall 
ist, wird typisch eine Abtrennung vom Takt und'/oder sogar der 
Leistung mSglich sein. Es sei erwahnt, dass bei Wiederein- 
schalten der Leistung nach einem Abtrennen ein sofortiges 
Wiederansprechen des Cachebereiches moglich ist, also keihe 
signifikante Verzogerung durch das An- urid Ausschalten der- 
Leistungszufuhr zu erwarten ist, sofern mit gangigen geeigne- 
ten Halbleitertechnologien eine Implementierung in Hardware 
erfolgt. 

Ein weiterer besonderer Vorteil, der sich bei der vorliegen- 
den Erfindung ergibt, besteht darin, dass zwar eine besonders 
effiziente Kopplung beziiglich des Obertrags von Daten bezie- 
hungsweise Operanden in insbesondere blockweiser Form gegeben 
ist, dass aber dennoch ein Balancing nicht in der Weise er- 
forderlich ist, dass die exakt gleiche Verarbeitungszeit in 
Sequenziell-CPU und XPP beziehungsweise Datenverarbeitungslo- 
gikzellenfeld erforderlich ist. Vielmehr erfolgt die Verar- 
beitung in einer praktisch oftmals unabhahgigen Weise, insbe- 
sondere derart,. dass die Sequenziell-CPU und die Datenverar- 
beitungslogikzellenfeldanordnung- fur einen Scheduler oder 
dergleichen als separate Ressourcen betrachtbar sind. Dies 
erlaubt eine sofortige Umsetzung bekannter Datenverarbei- 
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tungsprogrammaufspaltungstechnologien wie Multitasking, Mul- 
tithreading und Hyperthreading. Der sich ergebende Vorteil, 
dass ein Pfadbalancing nicht erforderlich 1st, fuhrt dazu, 
dass beispielsweise in der Sequenziell-CPU beliebige Anzahlen 
von Pipelinestufen durchlaufen werden konnen, Taktungen in 
unterschiedlicher Weise mSgliche sind und so weiter. Ein wei- 
terer Vorteil der vorliegenden Erfindung besteht darin, dass 
durch das Hineinkonfigurieren einer Ladekonf iguration bezie- 
hungsweise einer Storekonf iguration in das XPP oder andere 
Datenverarbeitungslogikzellenfelder die Daten in das Feld mit 
einer Geschwindigkeit hineingeladen werden oder aus diesem 
herausgeschrieben werden konnen, die nicht mehr bestimmt ist 
durch die Taktgeschwindigkeit der CPU, die Geschwindigkeit, 
mit welcher der OpCode-Fetcher arbeitet, oder dergleichen. 
Mit anderen Worten ist die Ablauf steuerurig der Sequenziell- 
CPU nicht mehr f laschenhalsartig begrenzend fUr den Daten- 
durchsatz des Datenzellenlogikf eldes, ohne dass eine nur noch 
lose Ankopplung besteht. 



Wahrend es in einer besonders bevorzugten Variante der Erfin- 
dung moglich ist, die fur eine XPP-Einheit bekannte CT (bzw. 
CM; Konfigurationsmanager bzw. Konf igurationstabelle) zu ver- 
wenden, urn sowohl das Konf igurieren eines oder mehrerer, auch 
hierarchisch mit mehreren CTs angeordneter XPP-Felder und 
gleichzeitig eines oder mehrerer Sequenziell-CPUs, dort quasi 
als Hyperthreading-Hardwareverwaltung zu verwenden, was den 
inharenten Vorteil hat, dafi bekannte Technplogien wie FILMO 
usw. fur die hardwareunterstutzte Verwaltung beim Hyperthrea- 
ding einsetzbar werden, ist es alternativ und/oder, insbeson- 
dere in hierarchischer Anordnung, zusatzlich moglich, dass 
ein Datenverarbeitungslogikzellenfeld wie eine XPP Konfigura- 
tionen vom OpCode-Fetcher einer Sequenziell-CPU- iiber das Ko- 
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prozessor-lnterface erhalt. Dies ftthrt dazu, dafl von der Se- 
quenziell-CPU und/oder einer anderen XPP ein Aufruf instanti- 
iert werden kann, der zu einer. Datenabarbeitung auf der XPP 
fUhrt. Die XPP wird dabei dann z . B . uber die beschriebene 
Cache-Ankopplung und/oder mittels LOAD- und/oder STORE- 
Konfigurationen, die Adressgeneratoren fur Laden und/oder 
Wegschreiben von Daten im XPP- bzw. Datenverarbeitungslo- 
gikzellenfeld vorsehen, im Datenaustausch gehalten. Mit ande- 
ren Worten wird eine Koprozessor-artige Ankopplung eines Da- 
tenverarbeitungslogikzellenfeldes moglich, wahrend gleichzei- 
tig ein datenstromartiges Datenladen durch' Cache- und/oder 
I/O-Port-Koppiung erfolgt. 

Es sei erwahnt, daA die Koprozessor-Ankopplung, d. h. die An- 
kopplung des Datenverarbeitungslogikzellenfeldes typisch.dazu 
fuhren wird, dali das Scheduling auch far dieses Logikzellen- 
feld auf der Sequenziell-CPU oder einer dieser ubergeordneten 
Schedulereinheit bzw. einem entsprechenden Schedulermittel 
erfolgen wird. In einem solchen Fall findet praktisch die " 
Threading-Kontrolle und -verwaltung auf dem Scheduler bzw. . 
der Sequenziell-CPU statt. Obwohl dies per se moglich ist, 
wird dies, zumindest bei einfachster Implementierung der Er- 
findung, nicht zwingend der Fall sein. Vielmehr kann eine 
Verwendung des Datenverarbeitungslogikzellenf eldes durch Auf- 
ruf in herkommlicher Weise wie bei einem Standard-Koprozessor 
etwa bei 8086/8087-Kombinationen erfolgen. 

Weiter sei erwahnt, dafi es in einer besonders bevorzugten Va- 
riante, unabhangig von der Art der Konf iguration, sei es uber 
das Koprozessor-lnterface, den als Scheduler mitdienenden 
Konfigurationsmanager (CT) der XPP bzw. des Datenverarbei- 
tungslogikzellenf eldes oderdergleichen oder auf andere Wei- 



Akte: PACT101 



se, moglich ist, im bzw. unmittelbar am Datenverarbeitungslo- 
gikzellenfeld bzw. unter Verwaltung des Datenverarbeitungslo- 
gikzellenfeldes Speicher, insbesondere interne Speicher, ins- 
besondere bei der XPP-Architektur, wie sie aus den diversen 
Voranmeldungen und den Verof f entlichungen des Anmelders be- 
kannt ist, RAM-PAEs, oder andere entsprechend verwaltete oder 
interne Speicher wie ein Vektorregister anzusprechen, d. h. 
die uber die LOAD-Konf iguration eingeladenen Datenmengen- vek- 
torartig wie in Vektorregisterh in die internen Speicher ab- 
zulegen, dann, nach Umkonf igurieren der XPP bzw. des Daten- 
verarbeitungslogikzellenfeldes, also Oberschreiben bzw. Nach- 
laden und/oder Aktivieren einer neuen Konf iguration, die die 
eigentliche Verarbeitung der Daten durchfiihrt (in diesem Zu- 
sammenhang sei darauf hingewiesen, daB fiir eine solche Verar- 
beitungskonf iguration auch Bezug genommeri -werden kann auf /ei- 
ne Mehrzahl von Konf igurationen, die z . B. im Wave-Modus ; , 
und/oder sequenziell nacheinander abzuarbeiten sind) zuzu- 
greifen wie bei einem Vektorregister und dann die dabei er- 
haltenen Ergebnisse und/oder Zwischenergebnisse wiederum in 
die internen oder uber die XPP wie interne Speicher verwalte- 
ten externen Speicher, urn dort diese Ergebnisse abzulegen. 
Die so vektorregisterartig mit Verarbeitungsergebnissen be- 
schriebenen Speichermittel unter XPP-Zugriff sind dann, nach 
Rekonfigurieren der Verarbeitungskonf iguration durch Laden 
der STORE-Konfiguration in geeigneter Weise weggeschrieben, 
was wiederum datenstromartig geschieht, sei es uber den 1/0- 
Port direkt in externe Speicherbereiche und/oder, wie beson- 
ders bevorzugt, in Cache-Speicherbereiche, auf welche dann zu 
einem spateren Zeitpunkt die Sequenziell-CPU- und/oder andere 
Konfigurationen auf der zuvor die Daten erzeugt habenden XPP 
oder einer ahderen entsprechenden Datenverarbeitungseinheit 
zugreifen kdnnen. 
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Eine besonders bevorzugte Variante besteht darin, zumindest 
far bestimmte Datenverarbeitungsergebnisse und/oder Zwischen- 
ergebnisse als Speicher- bzw. Vektorregistermittel, in wel- 
chem bzw. welches die erhaltenen Daten abzulegen sind, nicht 
einen internen Speicher zu benutzen, in welchen Daten aber 
eine STORE-Konf iguration in den Cache- oder einen anderen Be- 
reich, auf welchen die Sequenziell-CPU oder eine andere Da- 
tenverarbeitungseinheit zugreifen konnen, wegzuschreiben 
sind, sondern statt dessen unmittelbar die Ergebnisse wegzu- 
schreiben in entsprechende, ■ insbesondere z'ug t rif f sreservierte • 
Cachebereiche, die insbesondere Slice-artig organisiert sein 
konnen. Dies kann gegebenenf alls den Nachteil einer grofleren 
Latenz haben, insbesondere wenn die Wege zwischen der XPP- 
oder Datenverarbeitungslogikzellenfeldeiriheit und dem Cache 
so lang sind, daft die Signallauf zeiten ins Gewicht f alien/. 
fUhrt aber dazu, daft gegebenenf alls keine weitere STORE- 
Konf iguration benotigt wird. Es sei im librigen erwahnt, daft 
eine derartige Abspeicherung von Daten in Cache-Bereiche ei- 
nerseits, wie vorstehend beschrieben, dadurch moglich ist,- 
daft der Speicher, in welchen geschrieben wird, physikalisch 
nahe beim Cache-Controller liegt und als Cache ausgestaltet 
ist, dass aber alternativ und/oder zusatzlich auch die Mog- 
lichkeit besteht, einen Teil eines XPP-Speicherbereiches, 
XPP-internen Speichers oder dergleichen, insbesondere bei RAM 
Uber PAEs unter die Verwaltung eines oder, nacheinander meh- 
rerer Cache-Speichercontroller zu stellen. Dies hat dann Vor- 
teile, wenn die Latenz beim Abspeichern der Verarbeitungser- 
gebnisse, welche innerhalb des Datenverarbeitungslogikzellen- 
feldes bestimmt werden, gering gehalten w.erden soli, wahrend 
die Latenz beim Zugriff auf den dann nur noch als „Quasi- 
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Cache" dienenden Speicherbereich durch andere Einheiten nicht 
oder nicht signifikant ins Gewicht~ f allt . 

Es sei im ubrigen erwahnt, daft auch eine Ausgestaltung derart 
moglich 1st, dali der Cache-Controller einer herkommlichen Se- 
quenziell-CPU einen Speicherbereich als Cache anspricht, der, 
ohne dem Datenaustausch mit dem Datenverarbeitungslogikzel- 
lenfeld zu dienen, auf und/oder bei diesem physikalisch 
liegt. Dies hat den Vorteil, dafl dann, wenn Anwendungen auf 
dem Datenverarbeitungslogikzellenf eld laufen, die einen al- 
lenfalls geringen lokalen Speicherbedarf haben, und/oder wenn 
auch nur wenige weitere Konf igurationen bezogen auf die zur 
Verfugung stehenden Speichermengen bendtigt werden, diese ei- 
ner oder mehreren Sequenziell-CPUs als Cache zur Verfugung- 
stehen konnen. Es sei- erwahnt, dafi dann de v r Cache-Controller 
fur die Verwaltung eines Cache-Bereiches mit dynamischem Urn- 
fang, d. h. variierender Groiie ausgebildet sein kann und 
wird. Eine dynamsiche Cache-Umf angsverwaltung bzw. Cache-/- 
Umfangsverwaltungsmittel fur die dynamische Cache-Verwaltung 
wird typisch die Arbeitslast auf der Sequenziell-CPU und/oder 
dem Datenverarbeitungslogikzellenf eld berucksichtigen. Mit 
anderen Worten kann beispielsweise analysiert werden, wie 
viele NOPs in einer gegebenen Zeiteinheit auf der Sequenzi- 
ell-CPU vorliegen und/oder wie viele Konf igurationen im XPP- 
Feld in daftir vorgesehenen Speicherbereichen vorabgelegt sein 
sollen, um eine schnelle Urukonf iguration, sei es im Wege ei- 
ner. Wellenrekonf iguration oder auf andere Weise. Die hiermit 
offenbarte dynamische Cachegrosse ist dabei insbespndere be- 
vorzugt lauf zeitdynamisch, d. h . der Chacecontroller verwal- 
tet jeweils eine aktuelle Cachegrosse, die sich von Takt zu 
Takt oder Taktgruppe andern kann. Es sei im ubrigen darauf 
hingewiesen, dafi die Zugrif f sverwaltung eines XPP- bzw. Da- 
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tenverarbeitungslogikzellenf eldes mit Zugriff als interner 
Speicher wie bei einem Vektorregister und als Cache-artiger 
Speicher fur den externen Zugriff was die Speicherzugrif f e 
angeht bereits beschrieben wurde in der DE 196 -54 595 und der 
5 PCT/DE 97/03013 (PACT03) . Die genannten Schriften sind durch 
Bezugnahme zu Of f enbarungszwecken hiermit vollumf anglich ein- 
gegliedert. 

Vorstehend wurde auf Datenverarbeitungslogikzellenf elder Be- 
10 zug genommen, die insbesondere zur Lauf zeit rekonf igurierbar 
sind'. Es wurde diskutiert, dass bei diesen eine Konfigurati- 
onsverwaltungseinheit (CT bzw. CN) vorgesehen werden kann. 
Aus den diversen, zu Of f enbarungszwecken unter Bezug genomme- 
nen Schutzrechten des Anmelders sowie seinen weiteren Verof- 
15 f entlichungen ist die Verwaltung von Konf i'gurationen per se 
bekannt. Es sei nun explizit darauf hingewiesen, dass derar- 
tige Einheiten und deren Wirkungsweise, mit der insbesondere 
unabhangig von Ankopplungen an Sequenziell-CPUs etc. aktuell 
noch nicht benotigte Konf igurationen vorladbar sind, auch . 
20 sehr gut. nutzbar sind, um im Multitaskingbetrieb und/oder- bei 
Hyperthreading und/oder Multithreading einen Task- bezie- 
hungsweise einen Thread- und/oder Hyperthreadwechsel zu be- 
wirken. Dazu kann ausgenutzt werden, dass wahrend der Lauf- 
zeit eines Threads oder Tasks in die Konf igurationsspeicher 
25 bei einer einzelnen oder einer Gruppe von Zelien des Daten- 
verarbeitungslogikzellenf eldes, also beispielsweise einer PAE 
eines PAE-Feldes (PA) auch Konf igurationen fur unterschiedli- . 
che Aufgaben, das heifit Tasks oder Threads beziehungsweise 
Hyperthreads geladen werden konnen. Dies ftihrt dann. dazu, 
30 dass bei einer Blockade eines Tasks oder Threads, etwa wenn 

auf Daten gewartet werden muss, weil diese noch nicht verfiig- 
bar sind, sei es, da sie von einer anderen Einheit noch nicht 
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generiert Oder empfangen wurden, beispielsweise auf Grund von 
Latenzen, sei es, weil eine Ressource derzeit noch durch ei- 
nen anderen Zugriff blockiert ist, dann Konf igurationen far 
einen anderen Task oder Thread vorladbar und/oder vorgeladen 
5 sind und auf diese gewechselt werden kann, ohne dass der 
Zeitoverhead fur einen Konf igurationswechsel bei der insbe- 
sondere schattengeladenen Konf iguration abgewartet werden 
muss. Wahrend es prinzipiell mdglich ist, diese Technik auch 
dann zu verwenden, wenn innerhalb eines Tasks die wahrschein- 
10 lichste Weiterfuhrung vorhergesagt wird und eine Vorhersage 

nicht zutrifft (prediction miss), wird diese Art des Betriebs 
bei vorhersagefreiem Betrieb bevorzugt sein. Bei Verwendung 
mit einer rein sequentiellen CPU und/oder mehreren rein se-- 
quentiellen CPUs wird somit durch die Zuschaltung eines K-on- 
15 . f igurationsmanagers eine Hyperthreadingye'rValtungshardware 
realisiert. Verwiesen sei hinsichtlich dessen insbesondere 
auf PACT10 (DE 198 07 872.2, WO 99/44147, WO 99/44120). Dabei 
kann es als ausreichend erachtet werden, insbesondere dann, 
wenn nur far eine CPU und/oder einige wenige Sequenziell-.CPUs 
20 eine Hyperthreadingverwaltung gewunscht ist, auf bestimmte, 
in den speziell unter Bezug genommenen Schutzrechten be- 
schriebene Teilschaltungen wie den FILMO zu verzichten. Ins- 
besondere wird damit die Verwendung der dort beschriebenen 
Konf igurationsmanager mit und/oder ohne FILMO far die Hyper- 
25 threadingverwaltung fur eine und/oder mehrere rein sequenzi- 
ell arbeitende CPUs mit oder ohne Ankopplung an eine XPP oder 
ein anderes Datenverarbeitungslogikzellenf eld offenbart und 
hiermit far sich beansprucht. Es wird hierin eine fur sich 
erfinderische Besonderheit gesehen. Es sei im Ubrigen er- 
30 wahnt, dass eine Vielzahl von CPUs realisiert werden kann mit 
den bekannten Techniken, wie sie insbesondere aus PACT 31 (DE 
102 12 621.6-53, PCT/EP 02/10572) bekannt sind, • bei welchen 



- 20 - 



Akte: PACT101 



innerhalb eines Arrays eine oder mehrere Sequenziell-CPUs 
aufgebaut werden unter Ausnutzung eines oder mehrerer Spei- 
cherbereiche insbesondere im Datenverarbeitungslogikzellen- 
feld fur den Aufbau der sequenziellen CPU, insbesondere als 

5 Befehls- und/oder Datenregister . .Auch sei darauf verwiesen, 
dass bereits in fruheren Anmeldungen wie PACT02 , (DE 196 51 
075.9-53, WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 
98/29952), PACT08 , (DE 197 04 728.9, WO 98/35299) offenbart 
wurde, wie Sequenzer mit Ring- und/oder Wahlf rei-Zugrif f- 

0 Speichern aufgebaut werden konnen. 

Es sei darauf hingewiesen, dass ein Task- beziehungsweise 
Thread- und/oder Hyperthreadwechsel unter Verwendung der be- 
kannten CT-Technologie derart erfolgen kann und bevorzugt- 
auch erfolgen wird, dass einem per se bekannten, Software- 
implementierten Betriebssystem-Scheduler oder dergleicheni von 
der CT Performance-Scheiben und/oder Zeitscheiben zugeordnet 
werden, wahrend welchen bestimmt wird, von welchen Tasks oder 
Threads nachfolgend welche Teile per se, unterstellt, dass 
Ressourcen frei sind, abzuarbeiten sind. Dazu sei ein Bei- 
spiel wie folgt gegeben: Zunachst soil fur einen ersten Task 
eine Adressfolge generiert werden, gemafi welcher wahrend der 
Ausfiihrung einer LOAD-Konf iguration' Daten aus einem Cache- 
Speicher, an dem ein Datenverarbeitungslogikzellenf eld in der 
beschriebenen Weise angekoppelt ist, geladen werden sollen. 
Sobald diese Daten vorliegen, kann mit der Abarbeitung einer 
zweiten, der eigentlichen Datenverarbeitungskonfiguration, ■ 
begonnen werden. Auch diese kann vorgeladen werden, da sicher 
feststeht, dass diese Konf iguration, sofern keine Interrupts 
•oderdergleichen einen vollstandigen Taskwechsel erzwingen, 
auszufuhren ist.- In herkSmmlichen Prozessoren ist nun das 
Problem des sogenannten Cache-Miss bekannt, bei dem die Daten 
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zwar angefordert werden, aber nicht im Cache fur den Ladezu- 
griff bereit liegen. Tritt ein solcher Fall in einer Kopplung 
gemafi der vorliegenden Erfindung auf, kann' bevorzugt auf ei- 
nen anderen Thread, Hyperthread und/oder Task gewechselt wer- 
den, der insbesondere . zuvor von dem insbesondere softwareim- 
plementierten Betriebssystem-Scheduler und/oder einer anderen 
hard- und/oder sof twareimplementierten, ■ entsprechend wirken- 
den Einheit fur eine nachstmdgliche Ausfuhrung bestimmt wurde 
und demgemafi bevorzugt vorab in einen der verfugbaren Konfi- 
gufationsspeicher des Datenverarbeitungslogikzellenf eldes 
insbesondere im Hintergrund wahrend der Ausfuhrung einer an- 
deren Konfiguration, beispielsweise der LOAD-Konf iguration, 
welche das Laden jener Daten, auf die nun gewartet wird, be- 
wirkt hat, geladen wurde. Das fur die Vorab konf iguration :-un- 
gestort von der tatsachlichen Verschalturig der insbesondere 
grobgranular ausgebildeten Datenverarbeitungslogikzellen.;.des 
Datenverarbeitungslogikzellenfeldes separate Konf igurations- 
leitungen von der konf igurierenden Einheit zu den jeweiligen 
Zellen direkt und/oder uber geeignete Bussysteme gefiihrt sein 
kdnnen wie per se im Stand der Technik bekannt, sei hier ,noch 
einmal explizit erwahnt, da diese Ausbildung hier besonders 
bevorzugt ist, urn ein ungestdrtes Vorabkonf igurieren ohne 
StSrung einer anderen, gerade laufenden Konfiguration zu er- 
moglichen. Wenn dann die Konfiguration, auf welche wahrend 
beziehungsweise auf Grund des Task-Thread- und/oder Hyper- 
threadwechsels gewechselt wurde, abgearbeitet wurde, und 
zwar, bei bevorzugten nicht teilbaren, ununterbrechbaren und 
somit quasi atomaren Konf igurationen bis zum Ende abgeabeitet 
wurde, wird teilweise eine weitere andere Konfiguration wie 
vorbestimmt durch die entsprechenden Scheduler, insbesondere 
den betriebssystemartigen Scheduler festgelegt, abgearbeitet 
und/oder jene Konfiguration, zu welcher zuvor die zugehdrige 
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LOAD-Konfiguration ausgeftihrt wurde . Vor der Ausfuhrung einer 
Verarbeitungskonf iguration, zu welcher zuvor eine LOAD- 
Konfiguration ausgeftihrt wurde, kann insbesondere abgetestet 
werden, ob mittlerweile die entsprechenden Daten in das Array 
eingestromt sind, also die Latenzzeit, wie sie typisch auf- 
tritt, verstrichen ist und/oder die Daten tatsachlich vorlie- 
gen. 

Mit anderen Worten werden dann Latenzzeiten, wenn sie auftre- 
ten, weil z. B.. Konf iguratio'nen noch nicht einkonf iguriert 
sind, Daten noch nicht geladen und/oder Daten noch nicht weg- 
geschrieben wurden, uberbruckt und/oder verdeckt, indem 
Threads, Hyperthreads und/oder Tasks ausgeftihrt werden, wel- 
che schon vorkonfiguriert sind und welche mit Daten arbeiten, 
die schon verfugbar sind beziehungsweise "die an Ressourcen 
weggeschrieben werden konnen, die fur das Wegschreiben be- 
reits zur Verftigung stehen. Auf diese Weise werden Latenzzei- 
ten weitgehend tlberdeckt und es wird, eine hinreichende An- 
zahl von per se auszuf tihrenden Threads, Hyperthreads und/oder 
Tasks unterstellt, eine praktisch 100%-ige Ausnutzung des Da- 
tenverarbeitungslogikzellenfeldes erreicht. 

Mit dem beschriebenen System beztiglich Datenstrom-Fahigkeit 
bei gleichzeitiger Ankopplung an eine Sequenziell-CPU und/ 
Oder bezaglich der Ankopplung eines -XPP-Array beziehungsweise 
Datenverarbeitungslogikzellenfeldes und simultan einer Se- 
quenziell-CPU an eine geeignete Schedulereinheit wie einen 
Konfigurationsmanager oder dergleichen lassen sich insbeson- 
dere ohne weiteres. echtzeitf ahige Systeme realisieren. Zur 
Echtzeitfahigkeit muss gewahrleistet sein,. dass auf eintref- 
fende Daten beziehungsweise Interrupts, die insbesondere das 
Dateneintreffen signalisieren, innerhalb einer in- keinem Fall 



Akte: PACT101 

zu Uberschreitenden Maximalzeit reagiert werden kann. Dies 
kann beispielsweise geschehen durch einen Taskwechsel auf ei- 
nen Interrupt hin und/oder, beispielsweise bei priorisierten 
Interrupts, durch Festlegung, dass ein gegebener Interrupt 
momentan zu ignorieren ist, wobei auch dies innerhalb einer 
bestimmten Zeit festzulegen ist. Ein Taskwechsel bei derarti- 
gen echt zeitf ahigen Systemen wird typisch auf drei Arten er- 
folgen konnen, namlich entweder dann, wenn ein Task eine be- 
stimmte Zeit gelaufen ist (Watch-dog-Prinzip) , bei Nichtzur- 
verfugungstehen einer Ressource, sei es durch deren Blockade 
durch anderen Zugriff oder aufgrund von Latenzen beim Zugriff 
darauf, insbesondere in schreibender und/oder lesender Weise, 
das heifit bei Latenzen von Datenzugrif f en und/oder beim Auf- 
treten von Interrupts. 

Mit der vorliegenden Erfindung kann die Echtzeitf ahigkeit ei- 
nes Datenverarbeitungslogikzellenfeldes nunmehr erreicht wer- 
den, indem eine oder mehrere von drei moglichen Varianten im- 
plementiert. wird. 

Eine erste Variante besteht darin, dass innerhalb einer von 
dem Scheduler beziehungsweise der CT ansprechbaren Ressource 
ein Wechsel zur Abarbeitung beispielsweise- eines Interrupts 
erfolgt. Sofern die Ansprechzeiten auf Interrupts oder andere 
Anforderungen so groli sind, dass wahrend dieser Zeit eine 
Konfiguration ohne Unterbrechung noch abgearbeitet werden 
kann, ist dies unkritisch, zumal wahrend der Abarbeitung der 
aktuell laufenden Konfiguration auf jener Ressource, die fur 
die Abarbeitung des Interrupts zu wechseln ist, eine Konfigu- 
ration zur Interruptabarbeitung vorgeladen werden kann. Die 
Auswahl der vorabzuladenden Interrupt-bearbeitenden Konfigu- 
ration ist z. B. durch die CT durchzuftihren. Es^ ist moglich, 
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die Laufzeit der Konf iguration auf der fur die Interruptbear- 
beitung f reizugebenden bzw. zu wechselnden Ressource zu be- 
grenzen. Verwiesen wird dazu auf PACT29/PCT (PCT/DE03/000942 ) 

Bei Systemen, die schneller auf Interrupts reagieren miissen, 
kann es bevorzugt sein, eine einzelne Ressource, also bei- 
spielsweise eine separate XPP-Einheit und/oder Teile eines 
XPP-Feldes fur eine solche Abarbeitung zu reservieren. Wenn 
dann ein schnell abzuarbeitender Interrupt auftritt, kann 
entweder eine fur besonders . kritische Interrupts schon vorab 
vorgeladene Konf iguration abgearbeitet werden oder es wird 
sofort mit dem Laden einer Interrupt behandelnden Konfigura- 
tion in die reservierte Ressource begonnen. Eine Auswahl der 
jeweils fur den entsprechenden Interrupt erforderlichen Kon- 
figuration ist durch entsprechende Triggerung, Waveabarbei- 
tung usw. moglich. 

Es sei im Obrigen erwahnt, dass es mit den schon beschriebe- 
nen Methoden ohne weiteres moglich ist, eine instantane Reak- 
tion auf einen Interrupt zu erhalten, indem iiber die Verwen- 
dung von LOAD/STORE-Konf igurationen eine Code-Reentranz er- 
reicht wird. Hierbei wird nach jeder datenbearbeitenden Kon- 
figuration oder zu gegebenen Zeiten, beispielsweise alle funf 
Oder zehn Konf igurationen eine STORE-Konf iguration ausgefuhrt 
und dann eine LOAD-Konf iguration unter Zugriff auf jene Spei- 
cherbereiche ausgefuhrt, in die zuvor weggeschrieben wurde. 
Wenn sichergestellt wird, dass. die von der STORE-Konf igura- 
tion benutzten Speicherbereiche so lange unbertihrt bleiben, 
bis durch Fortschreiten im Task eine weitere Konf iguration 
samtliche relevanten Inf ormationen (Zustande, Daten) wegge- 
schrieben hat, ist sichergestellt, dass bei Wiederladen, also 
Wiedereintritt in eine zuvor bereits begonnene, • aber nicht zu 
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Ende gefuhrte Konf iguration oder Konf igurationskette wieder 
dieselben Bedingungen erhalten werden. Eine solche Zwischen- 
schaltung von LOAD/STORE-Konf igurationen -unter simultanem 
Schutz von noch nicht veralteten STORE-Speicherbereichen 
lasst sich automatisch ohne zusatzlichen Programmierauf wand 
sehr einfach generieren, z. B. von einem Compiler. Dort kann 
die Ressourcenreservierung gegebenenfalls vorteilhaft sein. 
Das bei der Ressourcenreservierung und/oder in anderen Fallen 
auf zumindest eine Menge hochpriorisierter Interrupts durch 
Vorabladen von bestimmten- Konf igurationen reagiert werden 
kann, sei noch einmal erwShnt . 

» „ 

Eine weitere, besonders bevorzugte Variante der Reaktion auf 
Interrupts besteht dann, wenn zumindest eine der ansprechba- 
ren Ressourcen eine Sequenziell-CPU ist, darin, auf dieser 
eine Interrupt-Routine abzuarbeiten, in welcher wiederum- Code 
fur das Datenverarbeitungslogikzellenf eld verboten ist. Mit 
anderen Worten wird eine Interrupt-Routine ausschlielilich auf 
einer Sequenziell-CPU abgearbeitet , ohne dass XPP-Datenverar- 
beitungsschritte aufgerufen werden. Dies garantiert, dass der 
Verarbeitungsvorgang auf dem. Datenverarbeitungslogikzellen- 
feld nicht zu unterbrechen ist und es kann dann eine Wei- 
terabarbeitung auf diesem Datenverarbeitungslogikzellenf eld 
nach einem Taskswitch erfolgen. Obwohl damit die eigentliche 
Interrupt-Routine keinen XPP-Code besitzt, kann dennoch daftir 
gesorgt werden,- dass auf einen Interrupt hin zu- einem spate- 
ren, nicht mehr echtzeitrelevanten Zeitpunkt mit der XPP auf 
einen durch einen Interrupt und/oder eine Echtzeitanf orderung 
erfassten Zustand und/oder Daten unter Verwendung des Daten- 
verarbeitungslogikzellenf eldes reagiert werden kann. 
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Patentanspruche 

Datenverarbeitungsvorrichtung mit einem Datenverarbeitungslo- 
gikzellenfeld und zumindest einer Sequenziell-CPU, dadurch 
gekennzeichnet, dass eine Ankopplung der Sequenziell-CPU und 
des Datenverarbeitungslogikzellenf eldes zum Datenaustausch in 
insbesondere blockweiser Form durch zu einem Cache-Speicher 
fuhrende Leitungen moglich ist. 
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Titel: 



Verfahren und Vorrichtung 
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Zusammenfassung 



Die Erfindung betrifft eine Datenverarbeitungsvorrichtung mit 
einem Datenverarbeitungslogikzellenf eld und zumindest einer 
Sequenziell-CPU.' Hierbei ist vorgesehen, dass eine Ankopplung 
der Sequenziell-CPU' und des Datenverarbeitungslogikzellenf el- 
des zum Datenaustausch in insbesondere blockweiser Form durch 
zu einem Cache-Speicher fuhrende Leitungen moglich ist. 
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